#include <stdio.h>

__global__ void hello_from_gpu() {
    printf("hello world from the GPU\n");
}

int main() {
    // 一共使用了4*4=16个线程，单程序多线程模式，每个线程都会独立执行该函数，会打印16次输出
    hello_from_gpu<<<4, 4>>>();
    // cpu同步等待gpu
    cudaDeviceSynchronize();
    return 0;
}

// 编译
// nvcc 001.helloworld.cu -o helloworld
// 执行
// ./helloworld
